“吴琦,现任阿德莱德大学高级讲师,ARC DECRA Fellow,2019年获得澳大利亚科学院罗素奖,担任 ICCV 2021 Area Chair。2015年于英国巴斯大学获得计算机科学博士学位,在CVPR、ICCV、ECCV、TPAMI 等顶会与期刊上发表论文60余篇。”
在不到100字的自我介绍中,吴琦对自己的科研经历作了简单总结。 阿德莱德大学(University of Adelaide)是全球顶尖的计算机视觉研究机构,近10年在计算机视觉三大顶会(ECCV、ICCV、CVPR)的论文发表成果十分突出 (CSRanking上计算机视觉排名全球第3)。在澳大利亚,高级讲师的级别相当于长聘副教授;而 ARC DECRA Fellow 全称“Australian Research Council DECRA Fellow”,相当于“澳大利亚优青”。事实上,在“名校加持”、“大师背书” 被默认为是科研者“标签”的人工智能领域,吴琦是一个少数:双非本科,一路读硕、读博,直到担任博士后研究员才开始接触深度学习与神经网络。起点低,入行晚,博士导师也不是知名的CV大神。尽管如此,2018年结束阿德莱德为期3年的博士后研究时,吴琦成功凭借自己在Vision-Langugae(视觉-语言,简称“VL”)上的领先成就,顺利获得留校任教的机会,并当选澳洲优青,得到为期3年的科研启动基金,同时获得了澳大利亚科学院罗素奖,定义了属于自己的“标签”。 在大多数中国人衡量高校学子个人潜力时,“985”、“211”是两个常见的数字:本科就读于985、211高校的学子会被寄予大展身手的宏图期望,而与985、211不沾边的普通中国学子往往会被一拨归类为职业与科研角逐场的边缘垫底者,更何况是在顶尖高校王牌专业学生集中的人工智能领域。那么,双非学子就注定无缘于前沿研究吗?起点低就不能在科研领域打出一方天地吗?答案显然是否定的。在吴琦看来,无论“出身”高低,科研面前人人平等。撇去外界的偏见,能够战胜结构性处境局限的主要手段,还是在于自己的坚持与努力。正如吴琦所说,“所有的坚持都会在某一时刻给你回报。”打破局限
“最近有句话不是很火吗?明明那么普通,却又那么自信。”吴琦调侃自己就是科研界的“普却信”。
然而,做科研本就是要探索无人之境,无论普通还是出众,如果不自信,也许连第一步都迈不出去。吴琦认为,不管来自哪里,在科研面前,失败与成功都是平等的,“就算很普通,也要很自信。”虽然“平平无奇”,但吴琦一直相信,自己要敢去做最前沿、最具挑战性的研究课题。因此,尽管近几年 VL 研究颇受争议,有人认为它是迈向视觉推理甚至通用人工智能的必经之路,也有人认为它是纸上谈兵,大部分工作都围绕定义新任务和数据展开,但吴琦自2015年开始接触VL研究以来,便始终坚持这一研究方向,决定一路走到黑。自成一派、独立探索、触碰边界的科研风格,可以从吴琦如何拒绝接受“双非”对自我的束缚说起。从某种意义上讲,吴琦不安于在别人已经画好的框里做研究,而是热衷于探索问题的边缘,与本科时立志跳出所处圈子、敲开头顶的天花板,是一脉相承的。 2006年,吴琦高考失利,错过第一志愿的录取线,到了第二志愿的中国计量大学,就读信息与计算科学专业。专业名称虽然是“计算科学”,但与计算机无关,是一个纯粹的数学专业。吴琦从初中开始就喜欢文科,但因为中考表现优异,他考入了山西省实验中学的理科实验班。这是全省名列前茅的尖子班,同学均是省内各地中考排名前三的尖子生,非常厉害。少年吴琦不愿错过这个机会,选择继续留在理科班。那年高考,吴琦的第一志愿填的是中国传媒大学的新闻专业。虽然高中3年常被同班同学碾压,常年垫底,“考得好的时候有望排到倒数第5名,考得不好的时候就是倒数第2名、第3名。”但好歹是在省级尖子班,所以吴琦压根没想到自己会掉出第一志愿,在填写第二志愿时就随便报了个与文科完全相反的数学专业。更让吴琦失落的是,当自己的高考成绩不尽如人意时,高中同窗好友已兀自腾飞。那一年,他的绝大多数高中同学都去了全国排名前20名的985高校,10人被清北录取,连去211的都极少,更别说普本。这让吴琦一度郁闷:“我们去的高中是一样的,为什么大家最后的结果会不一样?”仿佛在一个不留意间,命运伸出一只手,再回过神来,自己竟已与同龄人的生活千差万别。高考过后的好一段时间,吴琦都对自己十分失望。因此,“刚上大学那会,我一直在想要不要退学回去复读,重新参加高考。”但这个想法没有得到家人的支持。犹豫了一个学期,直到大一下学期开始,错过了高考报名时间,吴琦才放弃复读的想法。 “当时就想:ok,我既然来这边了,那就好好努力。”
图注:中国计量大学
当一个人无计可施,眼前只有一条路,即使这条路很窄很窄,看不到更广阔的风景,也只能硬着头皮走下去。在当时的吴琦看来,继续留在计量大学,寻找下一个出口,就是那条路。有人说,年少时的见闻会影响人的一生。对吴琦来说,这句话不假。高考后,尽管分隔异地,但吴琦的高中同学始终像一根名为“优秀”的标杆,伫立在他的道路前方,驱使他不断努力,不断追赶。要怎样才能缩小与高中同学的差距?吴琦想到了两条出路:考研或者出国。简而言之,就是要不断学习,读硕士、读博士,在某一个领域有所建树。本科期间,吴琦的专业学习主要是数学课程,如数学分析、高等代数、概率论等等,唯一两门与计算机较为相关的课程是数据结构与 C++。在寻找读研方向时,吴琦作了一番思考,比如要不要转去学校里的王牌质检专业,或是金融、精算等方向。上大二时,吴琦无意中接触到计算机图形学。上图形学选修课的老师当时刚从浙江大学毕业,在课上经常与他们分享发表在SIGGRAPH(计算机图形学顶会)上的研究论文,以及在该领域做科研的经历。图形学研究如何用计算机对图形进行计算与模拟,这令吴琦觉得很有意思,于是决定读研时要继续往这个方向努力。 在计量大学的四年,吴琦的生活基本是三点一线:图书馆、食堂、宿舍。“从大二开始,每天早晨5点就起床,跑去图书馆与自习室占座位。每天除了上课的时间,基本都是在图书馆、自习室度过,看专业书,准备托福、雅思、GRE,一直坚持到大四上学期结束。”回想日复一日的生活节奏,吴琦觉得,大学四年过得特别快。因为他的目标只有一个,就是不断追赶,赶上他的那些高中同学:“其实某种意义上,我把这个当成是对我的一个提醒甚至是惩罚,提醒我不要和那些考入清北的同学拉开更大的差距。”本科四年,吴琦年年拿奖学金。尽管如此,但他也能明显感觉到,在一所普通的大学里,他能获得的学习资源与成长机会十分有限。“我感觉那时候的我就像一块海绵,想吸收很多知识,也知道该往哪个方向吸收,但周围就是没有水。”那时候,吴琦也想跟着老师做研究,但学校里的科研氛围并不浓。他只能靠自己看看专业书,做做习题。这样的窘境也许是本科就读于985高校的同学所无法理解的:“当时暑假有问起在清北的好友,他们基本都是进实验室,真的很羡慕。”除了匮乏的成长资源,“双非”学生还要面对外界的偏见。当时,他想过报考浙江大学计算机图形学的研究生,但想到即使考上,国内对“双非本科”的成见仍可能构成阻碍个人成长的因素,加上与高中同学交流中,得知大多数人更倾向出国,“能够接触前沿研究的机会更多,”所以吴琦最终决定出国。大学毕业后,吴琦的同学中,90%的人都会选择直接就业,而他是他们系唯一一位选择出国的学生。大四那年,吴琦拿到帝国理工学院、伦敦大学学院(UCL)、巴斯大学等英国名校的一年制硕士offer。令他感到意外的是,巴斯大学竟然给他提供了奖学金,“因为英国的一年制硕士很少有奖学金,我感觉这是对我的一种认可。”于是,他决定去巴斯大学读硕士,攻读全局计算与多媒体技术专业。科研自信
巴斯大学在1966年成立,坐落于英国萨默塞特郡(Somerset),距离伦敦90分钟车程,校园面积较小,从一端走到另一端仅需要15分钟,以一流的翻译(杨洁篪母校)与商科人才培养著称。尽管吴琦所学项目不是巴斯的王牌专业,但在巴斯的五年学习,却是吴琦进入科研的关键要素。
图注:巴斯大学
首先是平台的变化。刚到巴斯,吴琦便感觉平台很不一样:“所有老师都在做研究,你可以和他们进行深入的科研问题探讨。”在这里,他终于有机会做自己想做的事情:学习图形学,进实验室做科研,接触前沿的研究。 硕士那一年,他跟着巴斯大学媒体技术研究中心(Media Technology Research Centre)的导师 Peter Hall 做研究。Peter Hall 主要研究非真实图像渲染(Non-Photorealistic Rendering,简称“NPR”),刚好吴琦也对图形学感兴趣,所以他便一边上课,一边跟着Peter研究如何通过物理建模的方式(比如渲染),把真实图像转化成中国的水墨画。
图注:NPR图像处理示例,将真实图像渲染水墨风格
正如前面所提到,在本科阶段,吴琦很想做科研,但没有机会。因此,到了巴斯大学后,吴琦想到的第一件事,不是坐一个半小时的车去伦敦看大本钟,而是终于有机会像海绵吸水一样去吸收知识。那一年,吴琦的忙碌程度不输大学四年,天天往实验室跑。硕士快毕业时,Peter问吴琦想不想留下来继续读博士,他可以提供奖学金,吴琦几乎没有思考就答应了。那时候的吴琦有多努力?他没有详细描述,只说了句:“如果他没有让我留下来读博,我其实都会感到诧异。” 2011年,吴琦继续留在巴斯,在Peter的门下攻读计算机科学博士,做图形学研究。组里的师兄分别做水、火、树等不同方向的模拟,Peter原本想让吴琦从“烟”的模拟入手,将组里的传统沿袭下来,但是,吴琦似乎又一次不愿意按着别人订好的框架走下去。 2012年夏天,吴琦去意大利西西里参加一个以计算机视觉为主题的夏校,有幸听了两位大神 Andrew Zisserman(欧洲计算机视觉第一人)与 Jitendra Malik (计算机视觉领域的奠基人之一)的报告。他们介绍了计算机视觉的一些基础课程与研究方向,吴琦觉得很新奇。 图形学是从数据到图像,而计算机视觉是从图像到数据。尽管当时深度学习尚未兴起,但吴琦觉得视觉是一个比图形学更有意思的研究方向。那时候计算机视觉研究还没有那么火,大家主要做的还是SIFT、BoW、DPM等传统方向,图像识别里,有研究简笔画与真实图像匹配的,但没有做风格画识别与分类的。吴琦想开拓这个方向,这也获得了Peter的支持。“不同绘画风格在描述相同物体时的呈现方式是千差万别的。比如,毕加索在画人脸时会用很多几何体,中国的水墨画在描绘山水时也有自己所讲究的笔法。人类能够很快识别毕加索画的人脸、水墨画上的奇石枝桠,但计算机很难识别出来。”这个研究课题需要结合图形学与计算机视觉的知识,而吴琦是实验室当时为数不多的研究计算机视觉的学生。加上 Peter 带学生的风格基本属于“放养”,一个月开一次会,每次开会也只讨论大的方向,所以吴琦只能靠自己自学机器学习与计算机视觉相关的基础理论,找教材,旁听,网上找视频。幸好吴琦本科学的是数学,概率论、高等代数等知识让他在入门机器学习时少了一些困难。跟着Peter,吴琦养成了“万事不求人”的科研习惯,从问题的提出、数据的建立,到具体用什么样的方法去完成,都是自己决定。即使到了后来,他去阿德莱德担任博士后研究员,他也“很不习惯经常和老板开会。” “所以现在有的学生就说,我没学过这个课程,我没做过这类问题,我该怎么办,是不是不能做?我养成的习惯就是:没做过也没关系,自己去看。”吴琦感慨。但同时,他也能深刻地体会到,博士刚入门时靠自学对学生来说有多艰难,所以,担任教职后,吴琦在自己带领学生时,“会跟得比较紧”,将与学生开会的优先级放在 To do list(待完成事项)的第一位。在硕博阶段,吴琦能明显感觉到自己的基础比其他从知名高校毕业的同学差,“别人上手很容易的课题,自己可能要花两到三倍的时间去恶补。”但好在国外似乎对985、211的标签并不在意,吴琦也愿意花更多时间去学习知识。“这也是为什么我说态度和坚持很重要,因为基础确实更差,确实要比别人花更多时间,没什么好隐藏的。做科研最重要的还是要能沉下心来,常年保持稳定的心态和作息、长时间的投入,搞不懂的地方就从最原始的问题开始抠。”吴琦总结。相比研究成果数量,吴琦觉得,自己在读博期间最大的收获是建立了一个较完整的知识体系。“我觉得对学生而言,能懂得什么是科研,比具体做一个paper要好得多。对于PhD,研究还是要成体系,从一个点开始,一直往更深的地方推进,最后可以去考虑如何推广到不同领域,做到一定程度的普适性,由点到线,再到面。当PhD毕业的时候,你应该是最懂这个方向的人之一。”最重要的是,在巴斯大学读博的经历,让吴琦感受到:原来自己没有名校背景,本科没有接触过科研,也是可以做前沿研究的。他所在的实验室里也有本科来自清北,浙大的同学,吴琦与他们齐聚一室,他开始相信自己也可以像他们一样优秀,甚至做到更好。边界探索者
临近博士毕业时,吴琦想要留在学术界继续做科研,于是决定先找一份博士后的工作。那会,他拿到了英国伦敦玛丽女王大学、UCL与巴斯大学,以及澳大利亚阿德莱德大学的博士后offer。久仰于阿德莱德在计算机视觉领域的名声,吴琦决定离开阴晴不定的英国,去阳光明媚的澳洲看一看。
图注:阿德莱德大学
2015年,吴琦加入阿德莱德大学澳大利亚视觉技术中心(ACVT),在 Anton van den Hengel 与沈春华两位导师的指导下开始了为期 3 年的博士后研究。沈春华是过去10年在CV三大顶会(CVPR、ICCV、ECCV)发表论文最多的在澳学者。刚到阿德莱德的第一年,吴琦便在与导师讨论后决定从跨领域图像研究转到视觉-语言(Vision-Language,这里简称“VL”)研究。促使吴琦及团队成员关注到VL的一个重要契机是:CVPR 2015出现数篇关于 image captioning(图像描述)的工作,其中最有名的当属 Andrej Karpathy 的 NeuralTak 和 Google 的 Show and Tell,同时,2015 年的 MS COCO Image Captioning Challenge 也引起了大量关注。吴琦所在的课题组除了他,还有两个博士后,一个研究图像分类,一个研究图像分割。阿德莱德在科研上一向不甘于人后,恰巧吴琦也热爱探索跨界性问题,VL结合了计算机视觉与自然语言处理(NLP)的知识,所以吴琦决定从图像跨到另一个模态——语言,展开图像与外部领域的跨界研究,也就是“视觉-语言”。后来,吴琦谈到,对他来说,VL最大的魅力在于,它不像图像分类、物体检测、分割等传统计算机视觉任务一样是作用在一个有限的、提前定义好的标签集上,而是它要处理的问题往往是“不可预知的”,是在训练集中未见过的形式与组合。这时候,他又成了组里第一个研究NLP的人。此前,吴琦在英国留学期间从来没有接触过深度学习、神经网络与NLP的内容。所以,刚到阿德莱德的第一个月,他狂补这些新知识,自学,请教同门博士生,把基础知识过一遍,“跟重读一个博士差不多。”在刚开始接触VL研究时,吴琦主要研究 Image Captioning,随后又涉足 VQA(图像问答),Referring Expression(指称表达),Visual Dialog(视觉对话)等方向。 博士后三年是吴琦的论文成果高产期。那三年,他在CVPR、AAAI、IJCAI、TRAMI等顶级会议与期刊上先后发表了15篇VL方向的研究论文。其中,最令他自豪的两项工作,一个是将属性引入 imaga captioning(发表于CVPR 2016),另一个则是将知识图谱引入VQA(发表于CVPR 2016)。
图注:吴琦将属性(attribute)引入image captioning的工作(发表于CVPR 2016)论文链接:https://arxiv.org/pdf/1506.01144.pdf在第一个工作中,吴琦及团队所研究的问题是围绕 image captioning 而展开。当时这个方向的主流模型是基于 CNN-RNN 框架,即输入一张图像,先用一个预训练的 CNN 去提取图像特征,然后将这些 CNN 特征输入到 RNN 去生成单词序列。这些模型看似强大,能够用端到端的方式学习到一个从图像到语言的直接对应关系,但却忽略了一个重要事实:图像和语言之间是存在鸿沟的。对此,吴琦的直觉告诉他:需要一个共同的子空间将图像空间与语言空间进行连接。他们想到了图像和语言都拥有的特征(attributes),于是,基于CNN-RNN 结构,他们多加了一个属性预测层。给定一张图像,先去预测图像当中的各种 attributes(包括物体名称,属性,动作,形容词,副词,情绪等等),然后再将这些 attributes 代替之前的 CNN 图像特征(如下图),输入到 RNN 当中,生成语句。虽然仅用了一个简单的框架,但却使得他们的 image captioning 模型得到了大幅度的提升,并使得他们在2015年12月的MS COCO Image Captioning Challenge Leader Board 上获得多项测评第一。这个工作改变了大家研究image captioning的方式,让大家知道不能直接从图像中提取特征,而是要先将图像变成视觉标签。
图注:image captioning模型性能提升
在image captioning上取得出色成果后,吴琦将attributes加入其它VL任务中,比如VQA。在VQA中引入属性研究也取得了不错的性能提升,但也让吴琦看到新的问题,即知识与推理对VQA的重要性。当时,大家做VQA都是直接通过大量数据去学习图像与问题的特征,然后想办法去猜问题的答案。而吴琦的想法是:人的推理是基于许多不同种类的知识,如果VQA需要回答问题,那么也需要一个“知识库”。但当时的 VL 研究并没有这个概念。于是,他们希望将知识图谱引入到VQA中。为了达到显示推理(explicit reasoning),即在回答问题的过程中能够给出一条可追溯的逻辑链,他们提出了新的 VQA 模型——Ahab。与以往直接把图像加问题直接映射到答案不同,Ahab 首先会将问题和图像映射到一个 KB query(知识图谱的请求),从而接入到成千上万的知识库当中。在这个模型中,答案具有可溯性,可以通过 query 在知识图谱当中的搜索路径得到一个显式的逻辑链。
图注:VQA模型 Ahab
同时,他们还提出了一个新的VQA数据集,叫做 fact-based VQA(基于事实的VQA)。这个数据集能够提供开放式的问题,并且能够针对每一对“问题-答案”提供事实支持。 相关工作发表于TRAMI 2018。越来越多人开始研究在VL任务引入知识图谱,“但我们是最早把常识引入到VQA中来的(团队)。”吴琦自豪地谈道。论文链接:https://arxiv.org/pdf/1606.05433.pdf经过三年探索,吴琦凭借其在VL研究上的出色成就,顺利拿到阿德莱德大学的教职offer,次年入选 ARC DECRA Fellow(澳大利亚“优青”)、获得澳大利亚科学院罗素奖,获得为期三年的研究基金,可以不用教课,自由探索VL研究。
图注:根据CVPR 2019的论文提交统计,VL相关的论文占了4%,成为热门研究方向之一
吴琦看到VL的重大潜力。然而,在他看来,要实现真正的人工智能,除了能够学习和理解多种模态的信息,机器还要能与真实环境进行一定程度的交互,从而帮助人类解决实际问题。吴琦解释:“目前,我们可以和手机上的Siri、小度等语音助手进行对话,但它们是不能移动的。假如有一天,我们有了一个可移动的人工智能助手,把Siri安装在小型家用机器人上,让机器人帮助我们完成某项任务,那么,在下指令时,机器人需要对你的语言指令与Ta所观察到的图像进行理解,同时具备导航与完成动作的能力。这也是我们将 Action(动作)加入到 VL 里的初衷。”因此,2018年,他决定在原有的VL基石上加进“动作”(Action)。为此,他提出了“V3A”的概念,即“Vision,Ask,Answer and Act”,机器以视觉为中心,进行提问(Ask),回答(Answer),行动(Act)等操作。
图注:V3A框架
2020年,吴琦在澳大利亚机器学习研究院 (Australian Institute for Machine Learning,CS Ranking上排名全球第3)下成立了 V3A 实验室。同时,他还担任澳大利亚机器人视觉研究中心(ACRV)的VL课题组组组长、AIML的VL项目组组长。从跨领域图像研究,到视觉-语言,再到视觉-语言-动作(Vision-Language-Action),吴琦从未停止对所在领域的边界探索与问题突破。在科研上,吴琦形容自己就像那只总想去海的边界来回试探的鸟。他不安于在别人已经画好的框架里做研究,而是喜欢自己探索问题的边界,研究如何与边界互动、突破边界,与其他学科建立桥梁,把原来所在的圈子扩大。
秉承挑战最前沿的研究原则,吴琦是最早进入VL的学者之一,目前在该领域小有成就,似乎终于兑现了当年高考失意时对自己的承诺。在吴琦努力向前冲的同时,他的高中同学也继续保持了优秀的人生履历,一直走在同龄人的前端。他们有的人在哈佛大学、斯坦福大学等名校担任教职,有的人是微软、Facebook等知名大厂的科研精英,也有分散在国内各个重要科研部门的科研人员。忙于韬光养晦的那十年,吴琦与他们几乎没有任何联系,却无时无刻不在以他们为目标。很有意思的是,有一次吴琦去CVPR参会,在会场遇到了当年考上北大的高中同学张拳石。上高中时,张拳石就坐在他的后面。北大毕业后,张拳石去了东京大学读硕博,又曾在UCLA朱松纯的门下担任博士后,目前在上海交通大学担任副教授。见到对方,两个人都很惊喜:“咦,你怎么也在这?”原来大家现在都是研究计算机视觉的。所幸人生不仅仅是大学四年的百里冲刺,而是决胜千里的马拉松长跑。如果吴琦因为一次考试的失败而放弃对人生作出追求,那么今天他也不会成为一名大学教授。对此,吴琦总结:态度与坚持真的是两项非常重要的品质。基于视觉与语言的导航
在研究趋势的把握上,吴琦保持一个习惯,就是每天都刷 arXiv,把 VL 相关的论文先保存下来,等空闲下来就去读,保证至少要把VL领域的论文摘要读一遍。基于多年研究,他认为,VL方向的研究目标大约可以分为3个阶段:任务定义阶段,增强推理阶段与实际应用阶段。
图注:视觉-语言研究的3个目标阶段
进入教职身份后,吴琦在原有的研究方向上,将VL的重点转向了Vision-Language-Navigation(基于视觉与语言的导航,简称“VLN”),希望未来能将VL的相关研究成果应用于家用机器人与护理机器人等产品上。VLN由embodied VQA所启发。embodied VQA是融合多模态信息,通过向放置在一个虚拟环境中的 agent(机器人) 提出基于文本的问题,需要其在虚拟的空间环境中进行路径规划(Navigation)和探索,以到达目标位置并回答问题。比如:汽车是什么颜色的?机器人在当前的位置看不到汽车,就要先进行路径规划,到达汽车所在的位置,从而给出答案。
吴琦在VLN上的探索始于2017年7月。当时,还是博士后的吴琦及ACRV的博士生Peter Anderson在VLN上进行了首次探索。在这个任务当中,他们提供一个基于真实拍摄室内场景的虚拟环境,将一个 agent 放置在这个环境当中,给出一段基于自然语言的详细的导航指令,要求这个 agent 能够按照指令所描述的路径到达对应的目的地。
图注:第一个VLN数据集
demo链接:https://bringmeaspoon.org/这需要模型能够同时理解语言和图像,把语言当中描述的位置以及关键点,定位到真实场景图像当中,然后执行相对应的动作。他们在Facebook的支持下所构建的数据集“Room2Room Navigation”在发布后也引起了极大的关注。通过VLN,他们第一次将VL的研究引入机器人。这篇工作发表于 CVPR 2018。当时,数据收集完毕时已接近10月下旬,只剩两周时间训练模型、跑实验、写paper,又赶上ACRV一年一度的年会,所有人都要去海豚岛度假一周。为了赶deadline,吴琦与队友决定扛着服务器过去,在岛上完成模型的搭建和训练:
图注:ACRV Robovis 2017
Room-to-room是VLN的第一个任务和数据,从2018年发表到现在不到3年的时间,以其为蓝本的扩展型任务和数据就已经有四五个,包括户外VLN Touchdown、Dialog VLN、REVERIE、细粒度标注等。在吴琦看来,VLN在任务探索上的发展已经较为全面,唯一缺失是agent如何与环境进行交互,比如拉开抽屉、打开柜子等。VLN中最常见的问题就是泛化能力。无论是R2R还是REVERIE,所有的测试环境都是在训练中未曾见过的环境,这必然导致训练和测试之前存在差距。因此,从方法层面来看,吴琦比较倾向在未来的VLN研究中使用元学习方法,以及引入先验知识与常识知识。目前,VLN的基本思路是:人给一个指令,机器去完成,也就是让机器代替人去完成或执行动作,并且前提是人对这个房间足够了解,而机器却一无所知。吴琦认为,这个假设与现实有所脱节,因为机器的主要任务是辅助人,而不是代替人。因此,他思考,在研究VLN时,是否可以换成:机器对整个房间的信息了如执掌,而人对新环境非常陌生,机器能够带领人或者指导人去完成导航?答案未知,但吴琦对VLN的探索仍在继续。“双非”也有向上的希望
在V3A实验室成立的第一年,吴琦便带领团队在两项VQA挑战赛(Medical VQA Challenge与TextVQA Challenge)中获得了两项冠军。此外,吴琦及其团队在CVPR等顶会上的中稿率也非常高,CVPR 2020/2021都中了6篇论文。吴琦谈到,能取得如此成就的原因在于:他在带领学生上花了大量的时间与精力。对学生与他本人来说,科研是非常严肃的事情。他希望,通过密切的交流与沟通,学生能够意识到大家都在认真做一件很重要的事,“导师都投入了大量的时间,我们也不要浪费这样的时间。”
图注:V3A实验室现有成员
在招收学生的过程中,吴琦最看重学生对待科研的态度。在他看来,踏实、认真、有毅力是最重要的,至于本科是不是985、211,无所谓。这也许与吴琦的个人经历有关。他的一个感受是:双非的学生起点低,也许更能体会成长资源的重要性,所以在硕博阶段,他们会更加珍惜学习知识的机会。比如,他的组内有位一年级博士生,叫邓超睿,本科就读于武汉科技大学,后来通过自己的努力考上华南理工大学的软件工程硕士、申请博士,目前已在CV顶会发表了3篇顶会一作,还有TPAMI一作,已经达到了优秀博士的毕业标准。“他非常热爱科研,取得成绩会很兴奋。每时每刻都在抓住机会吸收知识,和我当初的感觉很像。”吴琦谈道。在担任教职后,吴琦也更加察觉到:事实上,在任何领域,名校精英总是最少数,大部分学生都是普通人。因此,“无论身上有怎样的标签,都要面对竞争。但是越坚持,把一个方向深挖下去,就越有机会扩展自己的出口,找到更宽的路。不要让标签去定义你,束缚你,你要去定义标签。”相关阅读:
1. 从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究
由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。